智能论文笔记

CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet

Xiaoyi Dong , Jianmin Bao , Ting Zhang , Dongdong Chen , Shuyang Gu , Weiming Zhang , Lu Yuan , Dong Chen , Fang Wen , Nenghai Yu

分类：计算机视觉 | 机器学习

2022-12-12

Recent studies have shown that CLIP has achieved remarkable success in performing zero-shot inference while its fine-tuning performance is not satisfactory. In this paper, we identify that fine-tuning performance is significantly impacted by hyper-parameter choices. We examine various key hyper-parameters and empirically evaluate their impact in fine-tuning CLIP for classification tasks through a comprehensive study. We find that the fine-tuning performance of CLIP is substantially underestimated. Equipped with hyper-parameter refinement, we demonstrate CLIP itself is better or at least competitive in fine-tuning compared with large-scale supervised pre-training approaches or latest works that use CLIP as prediction targets in Masked Image Modeling. Specifically, CLIP ViT-Base/16 and CLIP ViT-Large/14 can achieve 85.7%,88.0% finetuning Top-1 accuracy on the ImageNet-1K dataset . These observations challenge the conventional conclusion that CLIP is not suitable for fine-tuning, and motivate us to rethink recently proposed improvements based on CLIP. We will release our code publicly at \url{https://github.com/LightDXY/FT-CLIP}.

translated by 谷歌翻译

PointCAT: Contrastive Adversarial Training for Robust Point Cloud Recognition

Qidong Huang , Xiaoyi Dong , Dongdong Chen , Hang Zhou , Weiming Zhang , Kui Zhang , Gang Hua , Nenghai Yu

分类：计算机视觉

2022-09-16

尽管在各种应用中取得了突出的性能，但点云识别模型经常遭受自然腐败和对抗性扰动的困扰。在本文中，我们深入研究了点云识别模型的一般鲁棒性，并提出了点云对比对抗训练（PointCat）。 PointCat的主要直觉是鼓励目标识别模型缩小清洁点云和损坏点云之间的决策差距。具体而言，我们利用有监督的对比损失来促进识别模型提取的超晶体特征的对齐和均匀性，并设计一对带有动态原型指南的集中式损失，以避免这些特征与其属于其属于其归属类别群的偏离。为了提供更具挑战性的损坏点云，我们对噪声生成器以及从头开始的识别模型进行了对手训练，而不是将基于梯度的攻击用作内部循环，例如以前的对手训练方法。全面的实验表明，在包括各种损坏的情况下，所提出的PointCat优于基线方法，并显着提高不同点云识别模型的稳健性，包括各向同性点噪声，LIDAR模拟的噪声，随机点掉落和对抗性扰动。

translated by 谷歌翻译

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

Xiaoyi Dong , Yinglin Zheng , Jianmin Bao , Ting Zhang , Dongdong Chen , Hao Yang , Ming Zeng , Weiming Zhang , Lu Yuan , Dong Chen

分类：计算机视觉

2022-08-25

本文提出了一个简单而有效的框架蒙版，该框架将新提出的掩盖自distillation纳入对比的语言图像预处理中。掩盖自distillation的核心思想是将表示从完整的图像提取到蒙版图像预测的表示形式。这种合并享有两个重要的好处。首先，掩盖的自我验证目标是本地贴片表示学习，这与视觉对比度的互补，专注于与文本相关的表示。二，掩盖的自我验证也与视觉语言对比符合训练目标的视野对比是一致的。视觉编码器用于功能对齐，因此能够学习本地语义从该语言中获得间接监督。我们提供了专门设计的实验，并进行了全面的分析，以验证这两个好处。从经验上讲，我们表明，当MaskClip应用于各种具有挑战性的下游任务时，可以在线性探测，填充和零拍摄中取得卓越的结果，并在语言编码器的指导下取得了卓越的结果。

translated by 谷歌翻译

HTML版本

Bootstrapped Masked Autoencoders for Vision BERT Pretraining

Xiaoyi Dong , Jianmin Bao , Ting Zhang , Dongdong Chen , Weiming Zhang , Lu Yuan , Dong Chen , Fang Wen , Nenghai Yu

分类：计算机视觉 | 机器学习

2022-07-14

我们提出了引导蒙面的自动编码器（bootmae），这是一种新的视觉BERT预训练方法。 Bootmae用两个核心设计改进了原始的蒙版自动编码器（MAE）：1）动量编码器，该动量编码器可作为额外的BERT预测目标提供在线功能； 2）试图降低编码器的压力以记住目标特定信息的靶向解码器。第一个设计的动机是通过观察到的，即使用预定的MAE提取特征，因为掩盖令牌的BERT预测目标可以实现更好的预训练性能。因此，我们与原始的MAE编码器并行添加了一个动量编码器，该编码器通过将其自己的表示作为BERT预测目标来引导预处理性能。在第二个设计中，我们将特定于目标的信息（例如，未掩盖贴片的像素值）直接传达到解码器中，以减少记住目标特定信息的编码器的压力。因此，编码器专注于语义建模，这是BERT预训练的目的，并且不需要浪费其在记住与预测目标相关的未掩盖令牌的信息时的能力。通过广泛的实验，我们的Bootmae在ImageNet-1k上获得了$ 84.2 \％$ $ $ $+0.8 \％$在同一预训练时期。 Bootmae还获得了$+1.0 $ MIOU在ADE20K上的语义细分和$+1.3 $ box ap，$+1.4 $+1.4 $ bask ap改进对象检测和可可数据集上的细分。代码在https://github.com/lightdxy/bootmae上发布。

translated by 谷歌翻译

Intelligent Request Strategy Design in Recommender System

Xufeng Qian , Yue Xu , Fuyu Lv , Shengyu Zhang , Ziwen Jiang , Qingwen Liu , Xiaoyi Zeng , Tat-Seng Chua , Fei Wu

分类：人工智能

2022-06-23

瀑布推荐系统（RS）是移动应用程序中RS的流行形式，是推荐的项目流，这些项目由连续页面组成，可以通过滚动浏览。在Waterfall RS中，当用户完成浏览页面时，Edge（例如，手机）将向Cloud Server发送请求，以获取新的建议页面，称为分页请求机制。 RSS通常将大量项目放入一页中，以减少众多分页请求中的过度资源消耗，但是，这将降低RSS根据用户的实时兴趣及时续订建议的能力，并导致贫穷的用户。经验。直观地，在页面内插入其他请求以更新频率的建议可以减轻问题。但是，以前的尝试，包括非自适应策略（例如，统一插入请求）最终会导致资源过度消费。为此，我们设想了一项名为智能请求策略设计（IRSD）的Edge Intelligence的新学习任务。它旨在通过根据用户的实时意图确定请求插入的适当情况来提高瀑布RSS的有效性。此外，我们提出了一种新的自适应请求插入策略的范式，名为基于Uplift的On-Ending Smart请求框架（AdareQuest）。 AdareQuest 1）通过将实时行为与基于基于注意力的神经网络相匹配的历史兴趣来捕获用户意图的动态变化。 2）估计根据因果推理插入的请求带来的用户购买的反事实提升。 3）通过在在线资源约束下最大化效用功能来确定最终请求插入策略。我们在离线数据集和在线A/B测试上进行了广泛的实验，以验证AdareQuest的有效性。

translated by 谷歌翻译

Deep Reinforcement Learning-Assisted Federated Learning for Robust Short-term Utility Demand Forecasting in Electricity Wholesale Markets

Chenghao Huang , Weilong Chen , Xiaoyi Wang , Feng Hong , Shunji Yang , Yuxi Chen , Shengrong Bu , Changkun Jiang , Yingjie Zhou , Yanru Zhang

分类：机器学习

2022-06-23

短期负载预测（STLF）在电力交易市场的运营中起着重要作用。考虑到对数据隐私的日益关注，在最近的研究中，越来越多地采用了联合学习（FL）来培训公用事业公司（UCS）的STLF模型。令人鼓舞的是，在批发市场中，由于发电厂（PPS）直接访问UCS数据并不现实，因此FL绝对是可行的解决方案，可以为PPS获得准确的STLF模型。但是，由于FL的分布性质和UC之间的激烈竞争，缺陷越来越多，导致STLF模型的性能差，表明仅采用FL是不够的。在本文中，我们提出了一种DRL辅助方法，缺陷感知的联合软性参与者 - 批评者（DearFSAC），以稳健地训练PPS的准确的STLF模型，以预测精确的短期公用事业需求。首先。我们仅使用历史负载数据和时间数据设计了基于长期短期内存（LSTM）的STLF模型。此外，考虑到缺陷发生的不确定性，采用了深入的增强学习（DRL）算法来通过减轻缺陷引起的模型退化来协助FL。此外，为了更快的FL训练融合，自动编码器设计用于缩小尺寸和上载模型的质量评估。在模拟中，我们在2019年验证了赫尔辛基UCS的真实数据的方法。结果表明，无论是否发生缺陷，DearFSAC都比所有其他方法都胜过所有其他方法。

translated by 谷歌翻译

PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers

Xiaoyi Dong , Jianmin Bao , Ting Zhang , Dongdong Chen , Weiming Zhang , Lu Yuan , Dong Chen , Fang Wen , Nenghai Yu

分类：计算机视觉 | 机器学习

2021-11-24

本文探讨了贝尔视觉变压器预训练的更好的码本。最近的工作成功地转移了从NLP到视野领域的BERT预训练。它直接采用一个简单的离散VAE作为视觉销售器，但尚未考虑由此产生的视觉令牌的语义水平。相比之下，NLP字段中的离散令牌是自然的高度语义。这种差异激励我们学习一个感知码本。我们惊奇地找到了一个简单而有效的想法：在DVAE训练期间强制执行感知相似性。我们证明，所提出的感知码本生成的视觉令牌确实表现出更好的语义含义，随后有助于预训练在各种下游任务中实现卓越的转移性能。例如，我们在Imagenet-1K上实现了84.5前1个精度，vit-B骨干，优于竞争方法Beit +1.3，具有相同的训练纪元。它还可以通过+1.3框AP和+1.0掩模AP，在ADE20K上的语义细分，在ADE20K上提高对象检测和分割任务的性能，+1.0 miou，代码和型号将在\ url {https：// github.com/microsoft/peco}。

translated by 谷歌翻译

SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System for Both Human Beings and Machines

Zhang Haozhe , Cai Zexin , Qin Xiaoyi , Li Ming

分类：人工智能

2021-11-06

如今，随着越来越多的系统在传统的语音转换（VC）任务中实现了良好的性能，人们的注意力在极端条件下逐渐转向VC任务。在本文中，我们提出了一种零射声语音转换的新方法。我们的目标是获取讲话者内容解剖的中间陈述，以更好地删除发言者信息并获得纯净的内容信息。因此，我们所提出的框架包含一种模块，该模块从源扬声器的声学特征中移除扬声器信息。此外，扬声器信息控制被添加到我们的系统中以维持语音克隆性能。所提出的系统由主观和客观度量评估。结果表明，我们提出的系统显着降低了零射声语音转换中的权衡问题，而且还可以对扬声器验证系统进行高欺骗功率。

translated by 谷歌翻译

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

Xiaoyi Dong , Jianmin Bao , Dongdong Chen , Weiming Zhang , Nenghai Yu , Lu Yuan , Dong Chen , Baining Guo

分类：计算机视觉 | 机器学习

2021-07-01

我们介绍克斯内变压器，一种高效且有效的变压器的骨干，用于通用视觉任务。变压器设计的具有挑战性的问题是，全球自我关注来计算成本昂贵，而局部自我关注经常限制每个令牌的相互作用。为了解决这个问题，我们开发了以平行的横向和垂直条纹在水平和垂直条纹中计算自我关注的交叉形窗口自我关注机制，通过将输入特征分成相等的条纹而获得的每个条纹宽度。我们提供了条纹宽度效果的数学分析，并改变变压器网络的不同层的条纹宽度，这在限制计算成本时实现了强大的建模能力。我们还介绍了本地增强的位置编码（LEPE），比现有的编码方案更好地处理本地位置信息。 LEPE自然支持任意输入分辨率，因此对下游任务特别有效和友好。 CSWIN变压器并入其具有这些设计和分层结构，展示了普通愿景任务的竞争性能。具体来说，它在ImageNet-1K上实现了85.4 \％Top-1精度，而无需任何额外的培训数据或标签，53.9盒AP和46.4掩模AP，ADE20K语义分割任务上的52.2 Miou，超过以前的状态 - 在类似的拖鞋设置下，艺术品+1.2，+2.0，+1.4和+2.0分别为+1.2，+2.0，+1.4和+2.0。通过在较大的数据集Imagenet-21k上进行前预先预订，我们在Ave20K上实现了87.5％的成像-1K和高分性能，55.7 miou。代码和模型可在https://github.com/microsoft/cswin-transformer中找到。

translated by 谷歌翻译

Realistic Large-Scale Fine-Depth Dehazing Dataset from 3D Videos

Ruoteng Li , Xiaoyi Zhang , Shaodi You , Yu Li

分类：计算机视觉

2020-04-18

Image dehazing is one of the important and popular topics in computer vision and machine learning. A reliable real-time dehazing method with reliable performance is highly desired for many applications such as autonomous driving, security surveillance, etc. While recent learning-based methods require datasets containing pairs of hazy images and clean ground truth, it is impossible to capture them in real scenes. Many existing works compromise this difficulty to generate hazy images by rendering the haze from depth on common RGBD datasets using the haze imaging model. However, there is still a gap between the synthetic datasets and real hazy images as large datasets with high-quality depth are mostly indoor and depth maps for outdoor are imprecise. In this paper, we complement the existing datasets with a new, large, and diverse dehazing dataset containing real outdoor scenes from High-Definition (HD) 3D movies. We select a large number of high-quality frames of real outdoor scenes and render haze on them using depth from stereo. Our dataset is clearly more realistic and more diversified with better visual quality than existing ones. More importantly, we demonstrate that using this dataset greatly improves the dehazing performance on real scenes. In addition to the dataset, we also evaluate a series state of the art methods on the proposed benchmarking datasets.

translated by 谷歌翻译